Crawl intelligent et adaptatif d'applications web pour l'archivage du web
نویسندگان
چکیده
RÉSUMÉ. Les sites web sont par nature dynamiques, leur contenu et leur structure changeant au fil du temps; de nombreuses pages sur le web sont produites par des systèmes de gestion de contenu (CMS). Les outils actuellement utilisés par les archivistes du web pour préserver le contenu du web collectent et stockent de manière aveugle les pages web, en ne tenant pas compte du CMS sur lequel le site est construit ni du contenu structuré de ces pages web. Nous présentons dans cet article un application-aware helper (AAH) qui s’intègre à une chaine d’archivage classique pour accomplir une collecte intelligente et adaptative des applications web. Parce que l’AAH est conscient des applications web actuellement collectées, il est capable de raffiner la liste des URL à traiter et d’ajouter à l’archive de l’information sémantique sur le contenu extrait. Afin de traiter les changements possibles de structure des applications web, notre AAH inclut un module d’adaptation qui rend la collecte résistante aux petits changements de structure du site web. Nous démontrons la valeur de notre approche en comparant la sortie et l’efficacité du AAH par rapport à des robots web traditionnels, également en présence de changements de structure.
منابع مشابه
Diagnostic multi-sources adaptatif. Application à la détection d'intrusion dans des serveurs Web
Résumé. Le but d’un système adaptatif de diagnostic est de surveiller et diagnostiquer un système tout en s’adaptant à son évolution. Ceci passe par l’adaptation des diagnostiqueurs qui précisent ou enrichissent leur propre modèle pour suivre au mieux le système au fil du temps. Pour détecter les besoins d’adaptation, nous proposons un cadre de diagnostic multi-sources s’inspirant de la fusion ...
متن کاملArchivage du contenu éphémère du Web à l ’ aide des flux Web *
Cette proposition de démonstration concerne une application d’archivage du contenu du Web à l’aide des flux Web. A partir de la spécification d’un domaine par l’utilisateur, des services spécialisés sont utilisés pour acquérir des flux pertinents. Pour chacun de ces flux, on exploite les indices sémantiques attachés à un objet dynamique pour extraire, à partir de la page Web associée, les donné...
متن کاملWiki et Web Sémantique
Résumé : Le concept de wiki a dix ans cette année mais a connu récemment un grand succès grâce à Wikipedia. Cependant, dans le monde des intranets, plusieurs études ont prouvé que l'utilisation des wikis est sujette à discussion et l'acceptation de tels outils de collaboration ouverts et peu structurés n'est pas évidente. Différentes raisons peuvent expliquer ce manque d'acceptation : des raiso...
متن کاملDéfinition d'un agent conversationnel assistant d'applications internet à partir d'un corpus de requêtes
RÉSUMÉ. Les Agents Conversationnels Assistants sont une sous-classe des Agents Conversationnels Animés, dédiée à la Fonction d’Assistance pour les applications et services du grand public. Les nouvelles applications Internet sont un domaine particulièrement intéressant pour étudier les agents assistants pour le grand public. Nous avons donc développé un logiciel orienté Web, appelé le « toolkit...
متن کاملHypertopic : une métasémiotique et un protocole pour le Web socio-sémantique
HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt età la diffusion de documents scientifiques de niveau r...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Ingénierie des Systèmes d'Information
دوره 19 شماره
صفحات -
تاریخ انتشار 2014